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Abstract. The main purpose of assessing abilities in the educational environment is to make various 
decisions based on the results of the exam. A scoring method must have the ability to produce high 
precision scores. To achieve this, test administrators usually use one of two popular scoring methods: 
Classical Test Theory and Item Response Theory. These Theories have their own advantages and 
disadvantages. IRT have high scoring precision, but the scoring process is difficult. On the other hand, 
CTT scoring comes with easy scoring processes but lacks precision. This study explores the factors that 
can lead to different scoring results through the CTT and IRT approaches while examining how far the 
scores produced by the two methods are related. The factors involved in this study were variations in 
item parameters, number of samples, number of items, and distribution of participants' abilities. Analysis 
of 216 factor combinations using one-way ANOVA found that there were significant differences in the 
correlation between combinations of factors. Meanwhile, the highest correlation between the two types of 
scores was found in conditions with irradiated item parameters, 1000 participants, 60 items, and normally 
distributed participants’ abilities. Further research is needed to explore other factors beyond this research. 
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Abstrak. Tujuan utama penilaian kemampuan di lingkungan pendidikan adalah untuk membuat 
berbagai keputusan berdasarkan hasil ujian. Sebuah metode penyekoran harus memiliki kemampuan 
menghasilkan skor dengan presisi tinggi. Untuk melakukan hal tersebut penyelenggara tes biasanya 
menggunakan salah satu dari dua metode penyekoran populer; Classical Test Theory dan Item Response 
Theory. Keunggulan dan kelemahan dua teori tersebut telah lama diteliti dan dibuktikan. Kelebihan IRT 
adalah presisi penyekoran yang tinggi, namun proses penyekoran sulit dilakukan. Keunggulan penyekoran 
CTT adalah proses penyekoran yang relatif mudah dilakukan namun memiliki akurasi yang kurang. 
Penelitian ini mengeksplorasi faktor-faktor yang dapat menyebabkan hasil penyekoran yang berbeda 
melalui pendekatan CTT dan IRT. Tujuan selanjutnya adalah menguji seberapa jauh skor yang dihasilkan 
kedua metode tersebut memiliki keterkaitan. Faktor-faktor yang dilibatkan dalam penelitian ini adalah 
variasi parameter butir, jumlah sampel, jumlah butir, dan distribusi kemampuan peserta. Analisis 
terhadap 216 kombinasi faktor dengan menggunakan ANOVA satu jalur menemukan bahwa terdapat 
perbedaan rerata korelasi yang signifikan antara kombinasi faktor. Di sisi lain, korelasi tertinggi antar 
kedua jenis skor ditemukan pada kondisi parameter soal yang tidak bervariasi, jumlah peserta sebesar 
1.000, jumlah soal sebanyak 60, dan distribusi kemampuan peserta yang normal. Penelitian lebih lanjut 
diperlukan untuk mengeksplorasi faktor lain di luar penelitian ini. 


Kata kunci: (Penyekoran kemampuan, Teori Respons Butir ,Teori Tes Klasik.) 


Penyekoran kemampuan siswa sangat penting dalam pendidikan. Skor, menurut 
Thissen & Wainer (2001) didefinisikan sebagai ringkasan keterangan yang terkandung 


dalam respons peserta ujian terhadap butir-butir soal tes yang terkait dengan konstruk 
yang diukur. Tujuan utama penyekoran kemampuan di lingkungan pendidikan adalah 
untuk membuat berbagai keputusan berdasarkan skor yang didapatkan dari tes yang 
dikerjakan (Zaman & Ali, 2008). 

Skor memegang peranan penting dalam penyelenggaraan sehingga skor yang 
dihasilkan oleh sebuah tes harus memenuhi kaidah-kaidah yang ditetapkan secara 
ilmiah. Karena adanya konsekuensi sosial dari skor yang dihasilkan oleh tes, Azwar 
(2010) menyatakan perlunya sebuah tes untuk memiliki validitas dan keadilan 
(fairness) yang tinggi. Beatty, Greenwood, & Linn, (1999) menyatakan bahwa peran 
tes terstandar dalam proses penyortiran peserta telah lama menjadi wacana diskusi 
terutama perihal keadilannya. Selain banyak menjadi sumber konflik perihal 
keputusan penerimaan baik di tataran pendidikan maupun bisnis, tes juga telah dipuji 
karena mampu memberikan tolok ukur umum untuk membandingkan siswa dari 
berbagai latar belakang. Untuk menyekor kemampuan seperti kemampuan kognitif 
siswa, keterampilan akademik, dan perkembangan intelektual, banyak pendekatan dan 
teori telah dikembangkan untuk mendapatkan skor ujian yang valid dan adil. Dua dari 
teori statistik populer tersebut yang akan dibahas dalam penelitian ini adalah Teori 
Tes Klasik / Classical Test Theory (CTT) dan Teori Respons Butir / Item Respons 
Theory (IRT). 

CTT telah digunakan selama beberapa dekade dalam bidang tes dan 
penyekoran. Menurut Hambleton & Jones, (1993) teori tes klasik adalah teori tentang 
skor tes yang memperkenalkan tiga konsep (1) skor tes atau observable Score, (2) skor 
murni atau true score, dan (3) skor galat atau error score. Observable Score adalah 
skor yang didapatkan dari pola jawaban peserta yang mengerjakan ujian. True Score 
adalah kemampuan peserta ujian yang tertangkap jika andaikan tidak ada kesalahan 
pengukuran dalam sebuah tes. Error score adalah selisih antara true score seorang 
peserta ujian dengan Observable score seorang peserta ujian. Error score dapat 
berbentuk positif atau negatif (Steyer, 2015). 

Proses Estimasi Skor 

Dalam kerangka kerja CTT, skor murni dari seorang peserta ujian adalah skor 
yang tidak mungkin diketahui harga sebenarnya / unobservable (Bichi, 2016), maka, 
dalam melakukan penyekoran kemampuan, CTT menggunakan Observable Score 
sebagai informasi utama. terdapat berbagai cara untuk mengestimasi observable score, 
yaitu dengan cara menjumlahkan bobot pada tiap butir soal (summed score), 
menjumlahkan bobot, lalu membaginya dengan jumlah butir soal (mean score), 
ataupun melihat jarak bobot soal dan rerata dengan deviasi standar tertentu (standard 
score) (Linn & Miller, 2005). Dalam penelitian ini, penyekoran yang digunakan adalah 
summed score yang selanjutnya dituliskan sebagai skor CTT. 

Hambleton & Jones, (1993) menjelaskan IRT sebagai sebuah teori statistik 
umum tentang butir soal yang diujikan dan performa sorang peserta ujian yang 
berkaitan dengan kemampuan tertentu yang diukur dalam ujian. Premis dasar IRT 


adalah bahwa probabilitas seorang peserta ujian untuk menjawab butir dengan benar 
adalah fungsi dari seperangkat faktor yang disebut traits, latent traits, atau 
kemampuan, dilambangkan dengan huruf Yunani theta (9) (Baker, 2008). Fungsi ini 
disebut sebagai fungsi respons butir atau item response function (IRF). IRF yang 
umumnya digambarkan, memiliki rentang 6 berkisar antara -3 hingga 3, dengan 0,0 


melambangkan kemampuan rata-rata. 
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Gambar 1. Contoh 
IRF jika jawaban 
benar 


Pada Gambar 1 dapat dilihat hubungan antara 6 dan peluang benar P(X). Ketika 
tingkat kemampuan @ meningkat dari kiri ke kanan, peluang peserta ujian untuk 
menjawab butir soal dengan benar P (X) meningkat. 
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Gambar 2. Contoh IRF jika jawaban salah 


Pada Gambar 2 dapat dilihat hubungan sebaliknya antara © dan peluang benar 
P(X) jika jawaban yang diberikan peserta ujian salah. Ketika tingkat kemampuan @ 
menurun dari kiri ke kanan, peluang peserta ujian untuk menjawab butir soal dengan 


benar P (X) menurun. 


Proses Estimasi Skor 

Berikut akan dijelaskan mengenai mekanisme penyekoran dengan menggunakan 
IRT. Menurut Thompson (2009) terdapat berbagai metode dalam melakukan estimasi 
theta dalam kerangka kerja IRT. 3 Metode yang populer adalah Maximum likelihood 
(ML), Bayesian Maximum a Posteriori (MAP), dan Bayesian Expectation a Posteriori 
(EAP). Metode-metode ini menggunakan sebuah fungsi tunggal yang disebut sebagai 
likelihood function (LF). LF didapatkan dengan cara melakukan perkalian terhadap 
IRF seluruh item. Merujuk pada Gambar 1 dan Gambar 2, Jika seorang peserta yang 
menjawab 1 soal benar dan 1 soal salah pada lokasi item 0,0, maka ketika IRF kedua 
item tersebut dikalikan akan menghasilkian likelihood function dengan titik maksimum 
berada pada titik 0,0 sehingga estimasi theta peserta ujian terbebut adalah 0,0. Tak 
hanya itu, LF uga digunakan untuk melakukan estimasi Standard Error of 
Measurement (SEM) dimana jika nilai SEM makin tinggi, menunjukkan bahwa kurva 
LF lebih tersebar sehingga dapat dikatakan estimasi theta kurang akurat. 

Sesuai dengan rekomendasi Thompson (2009) Penelitian ini akan menggunakan 
estimasi theta dengan metode Expected a Posteriori dikarenakan estimasi theta 
menggunakan ML akan bermasalah menghadapi pola jawaban benar semua atau salah 
semua (Nonmized response vector). Sedangkan, penggunaan Maximum, a Posteriori 
akan bermasalah dengan LF yang tidak simetris, dan isu-isu operasi hitung iteratif. 
Pada umumnya, terdapat 3 Model IRT yang sering digunakan (Baker, 2008). Model 
IRT 1 parameter (1PL), model IRT dua parameter (2PL), dan model IRT tiga 
parameter (3PL). Dijabarkan dalam Tabel 1. 


Tabel 1. Model Logistik IRT 











Parameter logistik Rumus 

Satu Parameter (1PL) Pr(Y; = 1) = F(Gi bh 

Dua Parameter (2PL) Pr(Yy= 1) = F(a; 8i — bi) 

Tiga Parameter (3PL) Pr(Y; = 1) = œ + (1- G) F(a; 0i — bj) 





Model 1PL mengasumsikan bahwa setiap butir soal pada ujian dipengaruhi oleh 
sebuah parameter kesulitan soal, dilambangkan dengan bj. Butir soal yang lebih sulit 
akan memiliki nilai bj lebih tinggi daripada butir soal yang mudah. Model 2PL 
menggunakan parameter kesulitan (bj) dan parameter diskriminasi (aj) untuk 
mengkarakterisasi suatu butir soal. Parameter diskriminasi menunjukkan seberapa 
baik butir soal membedakan antara siswa berkemampuan rendah dan tinggi. Semakin 
besar kemampuan suatu butir soal untuk melakukannya, semakin besar pula nilai 
parameter diskriminasinya. Terakhir, model 3PL menambahkan parameter tebakan 


semu / guessing parameter (4) ke dalam model. Guessing parameter adalah peluang 
peserta ujian mendapatkan jawaban yang benar untuk suatu soal secara kebetulan. 
Variabel Yi; merupakan Jawaban dari peserta ujian i ke item j, di mana Yi; = 1 ketika 
peserta ujian i memberikan jawaban yang benar terhadap item j, dan Yj = 0 adalah 
ketika jawaban yang diberikan salah. Fungsi F pada Tabel 1 disebut sebagai logistic 
link function sehingga model-model ini sering disebut sebagai 1/2/3 parameter logistics 
(Baur & Lukes, 2009). Penelitian ini menggunakan model 3PL dengan 3 parameter 
logistik untuk melakukan estimasi theta. Skor theta selanjutnya akan dituliskan 
sebagai skor IRT. 


D. Pokok Pikiran : Evaluasi dan Komparasi dua metode 

Kedua metode penyekoran ini telah banyak didiskusikan dalam berbagai literatur di 
bidang pengukuran psikologi dan pendidikan tentang kesesuaian dan efektivitas 
mereka dalam proses penilaian kemampuan. Xu & Stone (2012) Meneliti tentang 
koefisien validitas IRT dan Skor total (Summed Score) dalam CTT menggunakan 
beberapa faktor, yaitu: Jumlah butir soal, jumlah peserta ujian, variasi parameter a, 
dan juga koefisien korelasi antara theta dan summed score. Hasilnya menunjukkan 
bahwa CTT dan IRT memiliki kemiripan dalam melakukan evaluasi skor ujian dan 
pengukuran hasil. 

Beberapa peneliti menganggap bahwa IRT adalah mekanisme penyekoran yang 
superior dibandingkan CTT (Prieler, 2007: Rusch, Benjamin, Mair, & Treiblmaier, 
2017) Salah satu diantara kelemahan CTT dibandingkan dengan IRT adalah dalam 
kemampuan membedakan dan mengurutkan peserta. Zaman & Ali (2008) melakukan 
uji korelasi terhadap peringkat peserta ujian yang menggunakan IRT dan CTT. 
Hasilnya menunjukkan bahwa terdapat korelasi yang kuat antara peringkat peserta 
ujian yang dinilai dengan menggunakan IRT dan juga CTT. Namun, penelitian 
tersebut masih mencatat kekurangan CTT dalam melakukan diskriminasi peserta 
meskipun peringkat ujian hanya berbeda satu atau dua posisi dengan IRT. Perbedaan 
peringkat ini dapat berpengaruh kuat dalam pengambilan keputusan yang memiliki 
rasio kelulusan kecil seperti seleksi beasiswa ataupun seleksi admisi perguruan tinggi. 
Menurut penelitian ini, hal ini disebabkan karena dalam CTT, Seorang siswa yang 
menjawab pertanyaan sulit akan mendapatkan nilai yang sama dengan ketika 
menjawab pertanyaan mudah. Pola seperti ini tidak terjadi dalam Item Response 
Theory (IRT). Terlebih lagi, dalam CTT, dua siswa dengan skor mentah yang sama 
akan mendapatkan peringkat yang sama. Sedangkan jika menggunakan penyekoran 
IRT, mereka akan memiliki peringkat yang berbeda. Kasus-kasus di atas dapat 
mempersulit para penyelenggara ujian untuk mengambil keputusan berdasarkan skor 
hasil ujian yang menggunakan CTT. 


Meskipun memiliki banyak kekurangan dibandingkan dengan IRT, metode 
penyekoran menggunakan CTT memiliki keunggulan tersendiri yaitu kemudahan 
penerapannya di lapangan sehingga CTT masih menjadi metode penyekoran yang 


dominan hingga kini.(Reise & Ainsworth, 2018). Meskipun perbedaan teoritis dan 
empiris dari CTT dan IRT telah banyak dikaji (Bichi, Embong, & Mamat, 2015; 
Petrillo dkk., 2015), belum banyak penelitian yang mengkaji tentang kondisi dimana 
penyekoran CTT dengan segala kemudahan aplikasinya, dapat memiliki akurasi yang 
setara dengan IRT. 


E. Pokok Pikiran : Aplikasi praktis 

Salah satu contoh tes yang telah menggunakan metode penyekoran CTT dan IRT 
adalah SBMPTN. Sejak tahun 2018 SBMPTN telah mengubah metode pengukurannya 
dari yang sebelumnya pembobotan nilai secara klasik menjadi IRT (SBMPTN, 2018). 
Penyekoran yang dilakukan sebelum tahun 2018 adalah dengan memberikan skor 4 
pada jawaban benar, pemberian skor -1 pada jawaban yang salah, dan skor 0 bagi 
butir yang tidak dijawab oleh peserta ujian. Skor yang didapatkan oleh peserta pada 
tiap butir, lalu dijumlahkan (Summed Score). Mekanisme penyekoran untuk SBMPTN 
tahun 2018 adalah dengan memberikan skor 1 pada jawaban benar, dan skor 0 pada 
jawaban salah atau tidak dijawab. Pola jawaban peserta lalu di analisis menggunakan 
IRT. Penggunaan dua prosedur penyekoran yang berbeda ini menjadi pertanyaan bagi 
publik, sejauh mana hasil penerapan kedua metode menghasilkan kesamaan dan 
perbedaan mengenai skor yang dihasilkan. 


E. Faktor-faktor Estimasi 

Faktor parameter a, b, dan c sering dimanipulasi dalam berbagai penelitian karena 
secara teoritis berdampak langsung pada estimasi theta (Baker, 2008; Giiler & Uyanik, 
2014: Mamat, 2015). Secara sederhana, parameter butir soal adalah faktor yang 
memberikan “bobot” pada sebuah butir soal terhadap orang tertentu. Panjang soal 
dan jumlah peserta ujian juga telah banyak diteliti memiliki pengaruh pada estimasi 
theta dan parameter butir soal (Akour & Al-omari, 2013: Baur & Lukes, 2009). 
Selanjutnya penelitian ini melibatkan faktor yang belum pernah diteliti sebelumnya 
yaitu distribusi kemampuan peserta yang mensimulasi kondisi persaingan di SBMPTN 
berdasarkan tingkat kemampuan peserta. Oleh karena itu, faktor-faktor di atas sangat 
menarik untuk diteliti. 


F. Tujuan Penelitian 

Penelitian ini ingin mengeksplorasi efek dari berbagai kondisi yang dapat 
mempengaruhi estimasi kemampuan peserta ujian seperti variasi parameter 
diskriminasi soal, tingkat kesulitan soal, parameter tebakan semu, panjang soal, dan 
jumlah peserta ujian, dan distribusi kemampuan peserta ujian. Tujuan selanjutnya 
dari penelitian ini adalah untuk menguji seberapa jauh hasil penyekoran CTT memiliki 
keterkaitan dengan hasil penyekoran IRT. Penelitian ini memiliki relevansi dengan 
perkembangan penyekoran di Indonesia khususnya penerapan penggunaan skor IRT 
dan CTT. Penelitian ini juga memiliki keunikan tersendiri karena menggunakan faktor 
distribusi kemampuan peserta yang belum pernah diteliti sebelumnya. 


Metode 


A. Desain Penelitian 

Penelitian ini akan menggunakan simulasi Monte Carlo. Baik peneliti dan praktisi 
sering menggunakan studi simulasi Monte Carlo untuk menyelidiki berbagai 
pertanyaan penelitian dalam konteks IRT (Feinberg & Rubright, 2016). Bulut (2017) 
melakukan simulasi Monte Carlo menggunakan perangkat lunak pemrograman R 
dalam melakukan analisis terhadap parameter butir soal, parameter peserta ujian, dan 
unidimensionalitas. Hasilnya menunjukkan bahwa simulasi Monte Carlo dapat 
dijadikan pilihan yang lebih baik daripada menggunakan data lapangan karena peneliti 
dapat langsung memanipulasi faktor-faktor yang diinginkan. 

Penelitian ini menggunakan simulasi monte carlo daripada mengumpulkan data 
empiris karena beberapa sebab. Pertama, untuk mengumpulkan data empiris sambil 
memanipulasi beberapa kondisi (misalnya, ukuran sampel, panjang tes, dan 
karakteristik tes) sangat tidak praktis dan mahal. Kedua, tidak mungkin untuk 
meneliti dampak nyata dari variabel penelitian tanpa mengetahui karakteristik 
sebenarnya dari item dan peserta ujian (misalnya parameter item, distribusi 
kemampuan peserta ujian). Ketiga, data empiris sering kali tidak lengkap, yang dapat 
mempengaruhi hasil penelitian, terutama ketika jumlah data yang hilang dan pola 
hilangnya data tidak acak Selanjutnya, ketika melakukan studi psikometri, tidak 
mungkin untuk menghilangkan efek dari variabel perancu potensial yang terkait 
dengan peserta ujian (misalnya, Jenis kelamin, sikap, dan motivasi) dan butir soal 
(misalnya, Konten, kompleksitas linguistik, dan kompleksitas kognitif) (Feinberg & 
Rubright, 2016: Robitzsch & Rupp, 2009). 

Data dengan simulasi monte carlo pada penelitian ini didapatkan dengan langkah- 
langkah berikut: Pertama, Peneliti menentukan seperangkat faktor simulasi. Faktor- 
faktor simulasi dalam penelitian ini terdiri atas parameter diskriminasi soal (a), tingkat 
kesulitan soal (b), parameter tebakan semu (c), jumlah peserta ujian (n) dan jumlah 
soal (k) serta distribusi skor total (5). Pada faktor a, terdapat dua kombinasi nilai 
yaitu parameter a dengan variasi tinggi antara 0,3 dan 2,0 pada kelompok 1, dan 
rendah dengan rentang nilai antara 0,9 hingga 1,1 pada kelompok 2. Pada faktor b 
terdapat dua kombinasi nilai, yaitu: bervariasi tinggi dengan mean 0 dan deviasi 
standar sebesar 1,0 pada kelompok 1, dan bervariasi rendah dengan mean 0 dan 
deviasi standar sebesar 0,1 pada kelompok 2. Pada faktor c juga terdapat dua 
kombinasi nilai, yaitu: bervariasi tinggi dengan rentang nilai antara 0,2 hingga 0,4 
pada kelompok 1, dan bervariasi rendah dengan mean 0,2 dan deviasi standar sebesar 
0,02 pada kelompok 2. Faktor n memiliki 3 kombinasi nilai yaitu 15, 30, dan 60. 
Jumlah butir soal sebanyak 15 soal dipilih karena merepresentasikan satu sub tes pada 
SBMPTN tahun 2018, dan 60 soal merepresentasikan 1 bagian ujian dalam SBMPTN, 


sedangkan 30 soal merepresentasikan 2 sub tes dalam SBMPTN. Faktor k memiliki 3 
kombinasi nilai yaitu 1000, 500, dan 100. Sedangkan, faktor distribusi kemampuan 
peserta memiliki 3 kombinasi yaitu terdistribusi normal, terdistribusi tinggi, dan 
terdistribusi rendah distribusi ini merepresentasikan kondisi rasio persaingan tiap 
jurusan berdasarkan kualitas peserta ujian. (Biasa saja, ketat, dan longgar secara 
berurutan.) 

Selanjutnya, Faktor-faktor ini kemudian sepenuhnya disilangkan (fully crossed) 
sehingga menghasilkan 216 kelompok kombinasi faktor yang diberi label berurut dari 
1 hingga 216. Simulasi tiap kelompok lalu di replikasi sebanyak 10 kali. Selanjutnya, 
hasil simulasi kemudian diberikan skor sesuai dengan penyekoran CTT dan 
penyekoran IRT. Hasil penyekoran pada tiap kelompok kombinasi kemudian diestimasi 
koefisien korelasinya sehingga menghasilkan 2.160 harga korelasi. Terakhir, Peneliti 
memberikan label pada tiap harga korelasi dengan kode tertentu. Misalnya, 1d yang 
menunjukkan bahwa korelasi didapatkan dari kelompok kombinasi ke-1 dan replikasi 
ke-d. 


Tabel 2. Faktor Simulasi 








Faktor Kombinasi Keterangan Nilai 
1 Variasi Tinggi Unif (0,3: 2,0) 
i 2 Variasi Rendah Unif (0,9; 1,1) 
$ 1 Variasi Tinggi N (0; 1) 
2 Variasi Rendah N (0; 0,1) 
1 Variasi Tinggi Unif (0,2; 0,4) 
i 2 Variasi Rendah N (0,2: 0,02) 
1 1 Sub tes 15 
k 2 2 Sub tes 30 
3 1 Komponen 60 
1 Peserta Banyak 1000 
n 2 Peserta Sedang 500 
3 Peserta Sedikit 100 
1 Terdistribusi normal N (0; 1) 
5 2 Terdistribusi Rendah N (-1,1) 
3 Terdistribusi Tinggi N (1,1) 


Keterangan. N — Distribusi Normal; Unif — Distribusi uniform 


B. Perangkat Pembangkitan Data 

Pembangkitan data dalam Penelitian ini menggunakan perangkat lunak WINGEN 3 
(Han, K. T., & Hambleton, 2014) untuk menghasilkan pola jawaban ujian yang sesuai 
dengan kelompok kombinasi masing-masing. Untuk melakukan estimasi parameter 


butir soal dan theta, penelitian ini menggunakan paket ICL (Hanson, 2002) dalam 
perangkat lunak pemrograman R. 


C. Prosedur Analisis 

Setelah data dibangkitkan penulis kemudian melakukan penyekoran berdasarkan 
pendekatan CTT dan IRT. Langkah selanjutnya adalah menemukan hubungan antar 
kedua skor tersebut dengan menggunakan korelasi Pearson. Koefisien korelasi 
diestimasi tiga kali, korelasi pada tingkat keseluruhan subjek, kelompok rendah (50% 
terbawah) dan kelompok tinggi (50% teratas). Selanjutnya, Harga korelasi pada tiap 
kombinasi dianalisis dengan menggunakan analisis varians yang dilanjutkan dengan 
uji post-hoc Tukey's Honest Significant Differences (Tukey HSD). Uji ANOVA 
dan Tukey HSD dilakukan tiga kali, uji ANOVA dan Tukey HSD pada 3 level 
korelasi, uji ANOVA tanpa Tukey HSD pada 216 kombinasi faktor , dan uji 
ANOVA dan Tukey HSD pada 6 faktor penelitian. Perlu dicatat bahwa unit 
analisis pada data penelitian ini adalah korelasi antar dua prosedur penyekoran (CTT 
vs. IRT). 


Hasil 


A. Deskripsi Data Hasil Pembangkitan Data 

Berdasarkan hasil pembangkitan data, ditemukan koefisien korelasi yang tinggi dan 
signifikan antara skor CTT dan skor IRT pada seluruh kelompok penelitian dengan 
rata-rata korelasi sebesar 0,982. Korelasi paling rendah ditemukan pada kelompok 
kombinasi 188d (r = 0,918; p « 0,05 ), dan korelasi tertinggi terdapat pada kelompok 
140h (r — 0,997: p « 0,05). Kombinasi 188d yang memiliki korelasi terendah memiliki 
parameter diskriminasi soal dengan variasi rendah, parameter kesulitan soal dengan 
variasi tinggi, parameter tebakan semu dengan variasi tinggi, jumlah sampel 100, 
jumlah soal 15, dan distribusi kemampuan peserta yang rendah. Kombinasi 140h yang 
memiliki korelasi tertinggi memiliki parameter diskriminasi soal dengan variasi rendah, 
parameter kesulitan soal dengan variasi rendah, parameter tebakan semu dengan 
variasi rendah, jumlah sampel 500, jumlah soal 30, dan distribusi kemampuan peserta 
yang rendah. 

Selanjutnya, korelasi skor CTT dan skor IRT pada level kelompok rendah juga 
ditemukan cukup tinggi dengan rata-rata korelasi sebesar 0,952. Korelasi terendah 
pada level kelompok rendah ditemukan pada kelompok 161g (r — 0,714: p « 0,05), 
sedangkan korelasi tertinggi pada level kelompok rendah ditemukan pada kelompok 
66i (r = 0,998, p < 0,05). Kombinasi 161g yang memiliki korelasi terendah memiliki 
parameter diskriminasi soal dengan variasi tinggi, parameter kesulitan soal dengan 
variasi tinggi, parameter tebakan semu dengan variasi rendah, jumlah sampel 100, 
jumlah soal 15, dan distribusi kemampuan peserta yang rendah. Kombinasi 66i yang 


memiliki korelasi tertinggi memiliki parameter diskriminasi soal dengan variasi rendah, 
parameter kesulitan soal dengan variasi rendah, parameter tebakan semu dengan 
variasi rendah, jumlah sampel 1.000, jumlah soal 60, dan distribusi kemampuan 
peserta yang tinggi. 

Selanjutnya, Korelasi skor CTT dan skor IRT pada kelompok tinggi juga 
ditemukan tinggi dengan rata-rata korelasi sebesar 0,961. Korelasi terendah pada level 
tinggi ditemukan pada kelompok 188d (r — 0,756: p « 0,05). Di sisi lain, korelasi 
tertinggi pada level kelompok tinggi terdapat pada kelompok 65d (r — 0,997: p « 
0,05). Kombinasi 188d yang memiliki korelasi terendah memiliki parameter 
diskriminasi soal dengan variasi rendah, parameter kesulitan soal dengan variasi tinggi, 
parameter tebakan semu dengan variasi tinggi, jumlah sampel 100, jumlah soal 15, 
dan distribusi kemampuan peserta yang rendah. Kombinasi 65d yang memiliki korelasi 
tertinggi memiliki parameter diskriminasi soal dengan variasi rendah, parameter 
kesulitan soal dengan variasi rendah, parameter tebakan semu dengan variasi rendah, 
jumlah sampel 1.000, jumlah soal 60, dan distribusi kemampuan peserta yang rendah. 


Tabel 3. Kelompok kombinasi dengan korelasi terendah 











Level Korelasi r Kombinasi a b c n k » 
Total 0,92 188d 2 1 1 3 3 2 
Kelompok Rendah 0,71 161g 1 1 2 3 3 2 
Kelompok Tinggi 0,76 188d 2 1 1 3 3 2 
Keterangan. r = Koefisien korelasi a = daya beda soal; b = tingkat kesulitan soal; c 
= parameter tebakan semu; n = jumlah sampel: k = jumlah soal: X = distribusi 
kemampuan. 


Tabel 4. Kelompok kombinasi dengan korelasi tertinggi 











Level Korelasi r Kombinasi a b c n k » 
Total 0,99 140h 2 2 2 2 2 2 
Kelompok Rendah 0,99 66i 2 2 2 1 1 3 
Kelompok Tinggi 0,99 65d 2 2 2 1 1 2 
Keterangan. r = koefisien korelasi; a = daya beda soal; b = tingkat kesulitan soal; c 
= parameter tebakan semu; n = jumlah sampel; k = jumlah soal: X = distribusi 
kemampuan. 


B. Uji ANOVA antar Hasil Penyekoran pada Tiga Level Korelasi 

Pada bagian ini penulis membandingkan korelasi hasil penyekoran pada level 
keseluruhan, level kelompok rendah, dan kelompok tinggi tanpa memperhatikan 
kombinasi faktor-faktor. 


Berdasarkan perbandingan rata-rata korelasi dengan menggunakan ANOVA 
ditemukan harga F sebesar 559,790 dengan nilai p di bawah 0,05 Temuan ini 
menunjukkan bahwa terdapat perbedaan rata-rata korelasi yang signifikan antara 
korelasi skor secara keseluruhan, korelasi pada kelompok rendah, dan korelasi pada 
kelompok tinggi. 

Berdasarkan uji post-hoc menggunakan Tukey HSD pada Tabel 6, ditemukan 
bahwa nilai rata-rata korelasi total lebih tinggi secara signifikan dibandingkan dengan 
rata-rata korelasi kelompok rendah (delta ri, = 0,029; p < 0,05) dan juga secara 
signifikan lebih tinggi dibandingkan korelasi kelompok tinggi (delta rry = 0,021; p < 
0,05). Selanjutnya, Korelasi kelompok rendah, memiliki rata-rata yang secara 
signifikan lebih rendah dibandingkan Korelasi total (delta rrj = -0,029; p < 0,05) dan 
juga secara signifikan lebih rendah dibandingkan korelasi kelompok tinggi (delta rij = 
-0,008: p « 0,05). 


Tabel 5 Hasil uji post-hoc Tukey HSD 








(I) Level (J) Level Delta r (I-J) SE 
Korelasi Kelompok 0,02952” 0,00091 
Korelasi total mendaki x 
Korelasi Kelompok 0,02100 0,00091 
Tinggi 
Korelasi total -0,02952" 0,00091 
Korelasi Kelompok Rendah Korelasi Kelompok -0,00851” 0,00091 
Tinggi 
Korelasi total -0,02100” 0,00091 
Korelasi Kelompok Tinggi Korelasi Kelompok 0,00851” 0,00091 
Rendah 





Keterangan. Delta r (I-J) = selisih korelasi antar I dan J; SE = Eror standar, Sig. = 
signifikansi Tukey HSD. 


Selain itu rata-rata korelasi kelompok tinggi lebih rendah secara signifikan 
dibandingkan dengan korelasi total (delta ri, -0,021; p < 0,05), namun lebih tinggi 
secara signifikan dibandingkan korelasi kelompok rendah (delta rij = 0,008; p < 0,05). 
Dari Hasil tersebut, dapat dikatakan bahwa korelasi antara skor CTT dan Skor IRT 
yang tertinggi adalah ketika seluruh peserta dikorelasikan. Selanjutnya, Korelasi 
tertinggi kedua adalah jika kelompok yang dibandingkan hanyalah kelompok tinggi 
saja. Dan korelasi terendah adalah ketika kelompok yang dibandingkan hanyalah 
kelompok yang rendah saja. 


C. Uji ANOVA antar Hasil Penyekoran pada Kelompok Kombinasi 


Berdasarkan hasil ANOVA pada tiap kelompok kombinasi yang disimulasikan 
ditemukan perbedaan rata-rata korelasi yang signifikan secara keseluruhan (F = 
57,475; p < 0,05), pada kelompok rendah (F = 55,915; p < 0,05), dan pada Kelompok 
tinggi (F = 45,035; p < 0,05). Rata-rata Korelasi tertinggi secara keseluruhan 
ditemukan pada kombinasi 64 (r — 0,9964: p « 0,05). Selanjutnya, korelasi tertinggi 
pada level kelompok tinggi ditemukan pada kombinasi 65 (r = 0,9960; p < 0,05) dan 
korelasi tertinggi pada level kelompok rendah ditemukan pada kombinasi 66 (r — 
0,997: p « 0,05). Ketiga kombinasi tersebut memiliki kesamaan faktor sebanyak 5 dari 
6 faktor kombinasi yang disimulasikan, yaitu: faktor parameter a yang tidak bervariasi, 
parameter b yang tidak bervariasi, parameter c yang tidak bervariasi, jumlah peserta 
ujian sebanyak 1.000, dan jumlah soal sebanyak 60. Perbedaan satu-satunya terdapat 
pada distribusi skor total secara keseluruhan, rata-rata korelasi tertinggi ditemukan 
pada kelompok kombinasi dengan skor total yang terdistribusi normal. Sementara itu, 
pada kelompok tinggi, rata-rata korelasi tertinggi ditemukan pada kelompok 
kombinasi dengan distribusi skor total yang rendah. Selanjutnya, rata-rata korelasi 
tertinggi pada kelompok rendah ditemukan pada kombinasi dengan distribusi skor 
total yang tinggi. Berdasarkan temuan ini, dapat dikatakan bahwa dalam penelitian 
ini telah ditemukan kombinasi faktor-faktor tertentu yang dapat menghasilkan korelasi 
yang tertinggi antara skor CTT dan skor IRT. 


Tabel 6. Kombinasi dengan rata-rata korelasi tertinggi 








Korelasi r Kombinasi A b c n k di 
Total 0,9964 64 2 2 2 1 1 1 
Kelompok tinggi 0,9960 65 2 2 2 1 1 2 
Kelompok Rendah 0,9977 66 2 2 2 1 1 3 





Keterangan. a = daya beda soal; b = tingkat kesulitan soal; c = parameter tebakan 
semu, n = jumlah sampel: k = jumlah soal: X = distribusi kemampuan. 


D. Uji ANOVA antar Faktor Penelitian 

Hasil ANOVA menunjukkan perbedaan rata-rata korelasi yang signifikan (p « 0,05) 
pada setiap kelompok kombinasi kecuali pada kombinasi jumlah peserta (n) di 
kelompok rendah (F —2,946: p — 0,053). Berdasarkan analisis yang dilakukan, 
penelitian ini menemukan adanya perbedaan rerata korelasi yang signifikan antar 
kelompok kombinasi. Dengan catatan, perbedaan yang signifikan tersebut berada 
dalam rentang koefisien korelasi yang terbilang tinggi ( r > 0,900). 


Tabel 7. Hasil ANOVA antar Faktor Penelitian 


Kombinasi Level Kombinasi Rerata Rerata korelasi pada F Sig. 








Korelasi Kombinasi Faktor 
1 2 3 

Total 0,982 0,977 0,986 - 481.48 < 0,00 

Param. a Kelompok Rendah 0,952 0,938 0,966 - 280.013 < 0,00 
Kelompok tinggi 0,961 0,946 0,976 - 690.608 « 0,00 

Total 0,982 0,978 0,985 - 257.003 < 0,00 

Param. b Kelompok Rendah 0,952 0,935 0,969 - 452.093 < 0,00 
Kelompok tinggi 0,961 0,955 0,966 - 65.797 < 0,00 

Total 0,982 0,980 0,983 - 38.815  « 0,00 

Param. c Kelompok Rendah 0,952 0,949 0,955 - 13.97 « 0,00 
Kelompok tinggi 0,961 0,957 0,964 - 25.804 < 0,00 

Total 0,982 0,980 0,982 0,983 11.755 < 0,00 

n Kelompok Rendah 0,952 0,949 0,954 0,953 2.946 0,053 
Kelompok tinggi 0,961 0,957 0,961 0,964 8.907 < 0,00 

Total 0,982 0,985 0,981 0,978 90.829 < 0,00 

k Kelompok Rendah 0,952 0,967 0,951 0,939 97.873 < 0,00 
Kelompok tinggi 0,961 0,947 0,959 0,949 146.195 < 0,00 

Total 0,982 0,985 0,981 0,979 47.712 < 0,00 

x Kelompok Rendah 0,952 0,959 0,929 0,969 237.102 < 0,00 
Kelompok tinggi 0,961 0,964 0,965 0,953 38.811  « 0,00 


Perbandingan Rerata Berdasarkan Faktor Parameter Butir Soal 
Penelusuran lebih lanjut pada faktor kombinasi parameter daya diskriminasi 
(parameter a) pada Gambar 3, menunjukkan bahwa kelompok dengan kombinasi daya 
diskriminasi yang bervariasi rendah memiliki korelasi yang lebih tinggi dibandingkan 
kelompok dengan kombinasi daya diskriminasi yang bervariasi tinggi (Keseluruhan: 
0,986 > 0,977; Kelompok Rendah: 0,966 > 0,938: Kelompok Tinggi: 0,976 > 0,946). 
Temuan serupa juga didapatkan pada penelusuran pada parameter kesulitan soal pada 
Gambar 4 (Keseluruhan: 0,985 > 0,978; Kelompok Rendah: 0,969 > 0,935; Kelompok 
Tinggi: 0,966 > 0,955). dan juga parameter tebakan semu pada Gambar 5 
(Keseluruhan: 0,983 > 0,980; Kelompok Rendah: 0,9558 > 0,949; Kelompok Tinggi: 
0,964 > 0,957). Sehingga dapat dikatakan bahwa ujian yang memiliki variasi 
diskriminasi soal, kesulitan soal, dan parameter tebakan semu yang rendah akan 
memiliki korelasi antara skor CTT dan skor IRT yang lebih tinggi dibandingkan 
dengan ujian yang memiliki variasi diskriminasi soal, kesulitan soal, dan parameter 
tebakan semu yang tinggi. 


Rerata Korelasi Berdasarkan Variasi 
Parameter Diskriminasi Soal 
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Gambar 3. Perbandingan Rerata Korelasi Berdasarkan Variasi Parameter 


Diskriminasi Soal 


Rerata Korelasi Berdasarkan Variasi 
Parameter Kesulitan Soal 
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Gambar 4. Perbandingan Rerata Korelasi Berdasarkan Variasi Parameter 


Kesulitan Soal 


Rerata Korelasi Berdasarkan Variasi 
Parameter Tebakan Semu 
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Gambar 5. Perbandingan Rerata Korelasi Berdasarkan Variasi Parameter 


Tebakan Semu 


Perbandingan Rerata Korelasi ditinjau Berdasarkan Distribusi 
Kemampuan Peserta 

Sementara itu, penelusuran lebih lanjut pada means plot distribusi kemampuan peserta 
Pada Gambar 5, menunjukkan bahwa secara keseluruhan rata-rata korelasi antara 
skor CTT dan skor IRT lebih tinggi pada kelompok dengan kemampuan yang 
terdistribusi normal (M-r — 0,985) dibandingkan kelompok dengan kemampuan yang 
terdistribusi rendah (0,981), maupun kelompok dengan kemampuan peserta yang 
terdistribusi tinggi (0,978). Selanjutnya, jika korelasi dihitung pada kelompok rendah 
saja, maka rata-rata korelasi akan lebih tinggi pada kelompok dengan kemampuan 
yang terdistribusi tinggi (0,969) dibandingkan kelompok dengan kemampuan yang 
terdistribusi rendah (0,929) maupun terdistribusi normal (0,959). Sementara itu, pada 
kelompok tinggi, tidak terdapat perbedaan rata-rata antara kelompok dengan 
distribusi kemampuan yang rendah (0,965) dan kelompok dengan distribusi 
kemampuan yang normal (0,964) dengan perbedaan rata-rata 0,0007 dan signifikansi 
post- hoc Tukey HSD sebesar 0,88. Selanjutnya, kelompok dengan distribusi 
kemampuan yang tinggi memiliki rata-rata korelasi yang lebih rendah (r — 0,9531) 
secara signifikan (p « 0,05). 


Rerata Korelasi Berdasarkan 
Distribusi Kemampuan 
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Gambar 6. Perbandingan Rerata Korelasi Berdasarkan Distribusi 
Kemampuan Peserta 


Temuan ini sejalan dengan perbedaan kelompok kombinasi yang didapatkan pada 
Tabel 7. Dimana rata-rata korelasi secara keseluruhan lebih tinggi pada kelompok 
dengan distribusi normal, rata-rata korelasi pada kelompok rendah lebih tinggi pada 
kelompok dengan distribusi tinggi, dan rata-rata korelasi pada kelompok tinggi lebih 
tinggi pada kelompok dengan distribusi rendah. 


Perbandingan Korelasi ditinjau Berdasarkan Jumlah Butir 
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Gambar 7. Perbandingan Rerata Korelasi Berdasarkan Kombinasi jumlah 
soal (k) 


Terakhir, hasil ANOVA pada kombinasi jumlah peserta (n) menunjukkan nilai F 
sebesar 11,755 dengan p sebesar 0,000 Jika seluruh peserta dikorelasikan, dan nilai F 


sebesar 2,946 dengan p sebesar 0,053 jika korelasi dilakukan hanya pada kelompok 
rendah, serta nilai F sebesar 8,907 jika korelasi dilakukan hanya pada kelompok tinggi 
saja. Hasil tersebut menunjukkan adanya perbedaan rata-rata korelasi yang signifikan 
(P < 0,05) jika korelasi dilakukan pada seluruh peserta dan jika korelasi dilakukan 
terhadap kelompok tinggi saja. Sedangkan, jika korelasi dilakukan hanya kepada 
kelompok rendah saja, maka tidak ditemukan perbedaan rata-rata korelasi antara 
kombinasi dengan 1.000 peserta, 500 peserta, dan 100 peserta. 

Penelusuran lebih lanjut pada means plot dan post-hoc Tukey menunjukkan bahwa 
secara keseluruhan tidak terdapat perbedaan rata-rata korelasi yang signifikan (I-J — 
0,001: p — 0,105) )pada kelompok dengan 500 peserta (0,982) dan 100 peserta (0,983). 
Namun, kelompok dengan 1.000 peserta memiliki rata-rata korelasi yang lebih rendah 
(0,980) secara signifikan (p « 0,0) dibandingkan kelompok lainnya. Hasil serupa juga 
ditemukan pada rata-rata korelasi kelompok tinggi dimana ditemukan perbedaan rata- 
rata korelasi yang tidak signifikan (delta ri, = 0,00: p = 0,392) antara kelompok 
dengan 500 peserta (0,961) dan 100 peserta (0,964) Namun, kelompok dengan 1.000 
peserta memiliki rata-rata yang lebih rendah (0,957) secara signifikan (p « 0,05). 


Perbandingan Korelasi ditinjau Berdasarkan Ukuran Sampel 


Rerata Korelasi Berdasarkan Jumlah 
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Gambar 8. Perbandingan Rerata Korelasi Berdasarkan Jumlah peserta 


(n) 


Tabel 10. 
Hasil post-hoc Tukey HSD jumlah peserta (n) 
































Level Uk g 1 Beda rata- Standar gi 
Korelasi aa REER rata (I-J) Eror = 
500 -0,00157” 0,00056 0,014 
1.000 f 
100 -0,00272" 0,00056 0,000 
Korelasi 1.000 0,00157” 0,00056 0,014 
500 
Total 100 -0,00114 0,00056 0,105 
PA 1.000 0,00272" 0,00056 0,000 
500 0,00114 0,00056 0,105 
5 500 -0,00497 0,00213 0,052 
D | 100 -0,00375 0,00213 0,184 
pone 1.000 0,00497 0,00213 0,052 
Kelompok 500 
100 0,00122 0,00213 0,836 
Rendah 
Pr 1.000 0,00375 0,00213 0,184 
500 -0,00122 0,00213 0,836 
500 -0,00449* 0,00159 0,013 
1.000 : 
| 100 -0,00656" 0,00159 0,000 
Por 1.000 0,00449* 0,00159 0,013 
kelompok 500 
nee 100 -0,00208 0,00159 0,392 
inggi 
a 1.000 0,00656* 0,00159 0,000 
500 0,00208 0,00159 0,392 





Diskusi 


Berdasarkan Analisis dengan menggunakan ANOVA telah ditemukan kombinasi 
faktor yang dapat menyebabkan korelasi yang tinggi dan signifikan antara skor CTT 
dengan theta yaitu ketika parameter a, b, dan c memiliki variasi yang rendah, jumlah 
soal sebanyak 60 butir, Jumlah peserta ujian sebanyak 1.000 peserta, dan kemampuan 
peserta terdistribusi dengan normal. Sehingga dapat dikatakan bahwa, penyekoran 
CTT dengan menggunakan metode skor total dapat memiliki akurasi setara dengan 
IRT jika kondisi di atas terpenuhi. Meskipun Beberapa kondisi ini dapat dipenuhi 
dengan mudah seperti jumlah peserta dan jumlah soal, beberapa sulit untuk 
dimanipulasi nilainya. Contohnya, kondisi variasi parameter a,b, dan c yang hanya 
bisa dicapai jika soal disusun menggunakan metode Automated test assembly (ATA) 


atau Computerized Adaptive Test (CAT) . Begitu juga dengan Kondisi distribusi skor 
CTT yang normal akan sulit untuk dimanipulasi karena mustahil untuk mengetahui 
skor CTT seseorang sebelum mengerjakan ujian. 

Tidak ditemukannya perbedaan korelasi antara kelompok dengan jumlah peserta 
yang berbeda menunjukkan bahwa jumlah peserta ujian tidak berdampak pada 
korelasi skor CTT dan theta. hasil penelitian ini selaras dengan apa yang ditemukan 
oleh Zaman & Ali (2008) bahwa korelasi antara skor CTT dan theta tetap tinggi 
(0,950) pada kelompok dengan jumlah peserta 100. Hasil ini juga selaras dengan 
temuan oleh Akour & Omari (2013) dimana jumlah peserta tidak mempengaruhi 
akurasi estimasi Theta. Namun, jumlah peserta sebanyak 1.000 peserta terbilang 
rendah dalam Konteks SBMPTN dimana peserta ujian yang mendaftar ke sebuah 
jurusan dapat mencapai 4.000 peserta (LTMPT, 2019). Sehingga diperlukan penelitian 
lebih lanjut untuk menelusuri efek perbedaan jumlah peserta terhadap korelasi antara 
skor CTT dan theta. 

Temuan lain dalam penelitian ini menunjukkan adanya perbedaan korelasi antara 
kelompok dengan kombinasi 60 soal, 30 soal, dan 15 soal. Kelompok dengan 60 soal 
memiliki korelasi yang lebih tinggi antara skor CTT dan theta. Hal ini dikarenakan 
makin banyaknya soal, maka makin besar rentang skor CTT sehingga makin kecil 
peluang peserta ujian untuk mendapatkan skor CTT yang sama namun dengan bacaan 
theta yang berbeda. Dalam konteks rentang skor CTT, jumlah peserta juga perlu 
dipertimbangkan. Ujian dengan 1.000 peserta dan 15 soal akan memiliki lebih banyak 
skor CTT yang sama dengan pola theta yang tidak berbeda signifikan sehingga 
memperbesar korelasi dengan theta dibandingkan ujian dengan 500 peserta dan 15 soal 
atau ujian dengan 100 peserta dan 15 soal (Gambar 9) 


Rerata Korelasi Berdasarkan Faktor Gabungan n & 


0.99 
0.98 TT a 
or, eg 
0.96 Not, 
0.95 
0.94 
0.93 
0.92 
0.91 
0.9 

1000/60 1000/30 1000/15 500/60 500/30 500/15 100/60 100/30 100/15 


mmm Total == @— Kelompok Rendah ». @-” Kelompok tinggi 


Gambar 9. Perbandingan Rerata Korelasi Berdasarkan Faktor gabungan 
n&k 


Pengaruh rendah-tingginya variasi parameter a, b, dan c dalam penelitian ini dapat 
dijelaskan sebagai berikut: parameter a, b, dan c, secara langsung mempengaruhi 
estimasi theta. Sehingga, ketika pola jawaban benar dari seorang peserta ujian berbeda 
antar satu dan lainnya, maka makin bervariasi parameter butir soalnya, maka makin 
jauh perbedaan theta. Sebagai contoh, peserta x menjawab benar 2 dari 5 soal yang 
diujikan yaitu pada butir soal a dan b sedangkan butir c, d, dan e salah. Disisi lain, 
peserta y mendapatkan jumlah jawaban benar yang sama, namun pada butir soal c 
dan d. jika parameter butir soal bervariasi, maka bacaan theta pada butir a dan b oleh 
peserta x, akan berbeda dengan bacaan parameter pada butir c dan d. sehingga 
walaupun kemampuan peserta x dan y sama, mereka memiliki besaran theta yang 
berbeda. Jika parameter butir tidak bervariasi, katakanlah semua estimasi parameter 
pada item a, b ,c ,d dan e sama besarnya, maka bacaan theta pada item tersebut akan 
mirip layaknya jika tiap soal diberi bobot nilai yang sama. 

Namun, penggunaan IRT dalam proses SBMPTN masih belum dapat tergantikan. 
Jika andai kata seseorang ingin melakukan seleksi terhadap sekelompok peserta ujian 
dalam konteks SBMPTN, maka perbedaan 1 peringkat dapat menentukan diterima 
atau tidaknya peserta. Sehingga kemampuan diskriminasi peserta pada IRT tetaplah 
superior. Sebagai contoh, SBMPTN pada jurusan Teknik Geodesi Universitas Gadjah 
Mada pada tahun 2018 (LTMPT,2019), dengan jumlah pendaftar sebanyak 1024, dan 
peserta lulus sebanyak 61 orang, serta rasio kelulusan sebesar 6%. Jika kita 
menggunakan rasio yang sama pada kelompok kombinasi dengan korelasi tertinggi 
pada kelompok tinggi (kombinasi 65e), maka terdapat perbedaan sebanyak 2 orang 
yang lulus jika kita menggunakan penyekoran dengan IRT, namun kedua peserta 
tersebut dinyatakan tidak lulus jika dilihat peringkatnya menggunakan hasil dari 
penyekoran CTT. Tidak hanya itu, 2 orang yang tidak lulus tersebut memiliki skor 
CTT yang sama dengan 9 orang lainnya. Dalam kondisi ini maka dapat dikatakan 
bahwa jika kita menggunakan CTT sebagai mekanisme penyekoran, maka 
penyelenggara tes harus melakukan beberapa keputusan arbitrer dengan cara 
mendiskriminasi peserta ujian tidak dengan mekanisme penyekoran utama (misalnya, 
membandingkan nilai pada komponen ujian lain atau sub tes tertentu). 

Kekurangan dari penelitian ini adalah tidak digunakannya korelasi Spearman- 
Brown yang secara langsung menelaah hubungan antar peringkat peserta ujian. 
Penelitian ini juga hanya menggunakan satu metode penyekoran IRT yaitu EAP. Hal 
ini terjadi karena keterbatasan waktu dan teknologi dalam melaksanakan penelitian. 
Penelitian lebih lanjut diperlukan untuk menelaah kekurangan pada penelitian ini. 


Kesimpulan 


Berdasarkan hasil ANOVA. Ditemukan 5 Faktor yang dapat menghasilkan korelasi 
yang tinggi antara skor CTT dan theta secara keseluruhan, pada kelompok rendah, 
ataupun pada kelompok tinggi. 5 Faktor tersebut adalah variasi parameter a yang 
rendah, variasi parameter b yang rendah, variasi parameter c yang rendah, jumlah 
peserta sebanyak 1.000, dan jumlah butir soal sebanyak 60. Berdasarkan analisis lebih 
lanjut, ditemukan bahwa faktor jumlah peserta ujian tidak dapat memberikan 
pengaruh signifikan jika tidak dikaitkan dengan variabel jumlah soal. Sedangkan 
faktor distribusi skor CTT akan berpengaruh secara berbeda jika korelasi dilakukan 
pada kelompok yang berbeda. 

Penelitian ini berhasil menemukan kondisi optimum hipotetis dimana CTT dan IRT 
dapat memiliki korelasi hasil penyekoran yang tertinggi berdasarkan berbagai faktor. 
Temuan ini perlu diteliti lebih lanjut dengan kombinasi faktor lain yang dapat 
mempengaruhi korelasi antara hasil penyekoran IRT dan CTT. 
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